1. 信息增益(ID3)

  • 信息熵

    还需要多少信息才能分开?

  • 越接近0越纯净

  • 越大越需要信息来分开

  • ID3划分标准:信息增益

    用属性a对样本集及逆行划分所获得的信息增益

2. 增益率(C4.5 )

限制一次不要生出太多树枝

  • IV(a):体现用a属性作为分割会分出的树枝数量,体现a属性内的分裂程度,也称为属性a的固有值
  • C4.5 划分标准:增益率

3. 基尼系数(CART)

抽两个,不一样的概率

  • 纯度:两个抽取的样本不一样的概率(越小越纯)
  • 基尼系数:使用a属性划分之后的纯度